Národní úložiště šedé literatury Nalezeno 12 záznamů.  1 - 10další  přejít na záznam: Hledání trvalo 0.01 vteřin. 
Metody stemmingu používané při dolování textu
Adámek, Tomáš ; Chmelař, Petr (oponent) ; Bartík, Vladimír (vedoucí práce)
Tématem této diplomové práce je problematika jednotlivých metod pro dolování z anglických textových dokumentů. Hlavní část této práce se zabývá analýzou metod pro předzpracování textu, konkrétně stemmingem. Jsou zde rozebrány jednotlivé algoritmy stemmingu (Lovinsův, Porterův a Paice/Husk), které z jednotlivých slov textového dokumentu získávají jejich základní tvar (kořen), za použití speciálních lexikografických pravidel anglického jazyka. Tyto kořeny slov jsou následně uloženy do strukturované podoby pro další zpracování. Další část práce se zabývá návrhem aplikace, která tyto algoritmy využívá pro svoji činnost. Aplikace je postavena na platformě Java s využitím grafické knihovny Swing a architektury MVC. Další kapitola popisuje implementaci navržené aplikace a stemovacích algoritmů v jazyce Java. Poslední kapitola je zaměřena na experimenty s jednotlivými algoritmy a jejich srovnání z hlediska vlivu na výsledky klasifikace textu.
Programovací jazyk Scala a jeho využití pro analýzu dat
Kohout, Tomáš ; Bartík, Vladimír (oponent) ; Zendulka, Jaroslav (vedoucí práce)
Tato práce se zabývá porovnáním jazyka Scala s ostatními běžně používanými jazyky pro analýzu dat. Tyto jazyky se porovnávají z hlediska manipulace a zobrazení dat, strojvého učení a souběžného zpracování. Z tohoto porovnání následně vyplynou silné a slabé stránky jazyka Scala. Silné stránky jsou demonstrovány na implementované aplikaci pro kategorizaci e-mailů.
Zpracování uživatelských recenzí
Cihlářová, Dita ; Burget, Radek (oponent) ; Bartík, Vladimír (vedoucí práce)
Velmi často lidé nakupují na internetu zboží, které si nemohou prohlédnout a vyzkoušet. Spoléhají se tedy na recenze ostatních zákazníků, ale těch už může být v dnešní době příliš mnoho na to, aby je člověk mohl sám rychle a pohodlně zpracovat. Cílem této práce je nabídnout aplikaci, která dokáže v českých recenzích rozpoznat, jaké vlastnosti produktu jsou nejvíce komentované a zda je vyznění komentářů pozitivní či negativní. Výsledky pak mohou ušetřit velké množství času zákazníkům e-shopů a poskytnout zajímavou zpětnou vazbu výrobcům prodávaných produktů.
Odhad emocí z textu
Dufková, Aneta ; Fajčík, Martin (oponent) ; Szőke, Igor (vedoucí práce)
Tato práce popisuje proces odhadování emocí z textu, při němž je využíváno strojové učení. Proces začíná průzkumem používaných metod, pokračuje výběrem vhodné metody a experimentováním. Využívá několik datových sad, kombinuje je a zkouší různé techniky předzpracování textu. Závěrem je webové rozhraní, které využívá předtrénovaný model a umožňuje detekovat emoce z příspěvků z Twitteru.
Assessment and implementation of text data preprocessing in neural network models
Ratnasari, Febiyanti
V oblasti zpracování textových dat měla tradičně významnou úlohu předzpracování textu. S nástupem neuronových sítí a nových reprezentací textových dat však bylo předzpracování textu relativně podceňováno. Tato výzkumná práce se snaží vyřešit tuto problematiku prostřednictvím zkoumání potenciálních výhod použití kompozitu více technik předzpracování textových dat společně s textovým zpracovacím modelem založeným na neuronových sítích.
Rychlý a trénovatelný tokenizér pro přirozené jazyky
Maršík, Jiří ; Bojar, Ondřej (vedoucí práce) ; Spousta, Miroslav (oponent)
V této práci představujeme systém pro dezambiguaci hranic mezi tokeny a větami. Charakteristickým znakem programu je jeho značná konfigurovatelnost a všestrannost, tokenizér si dokáže poradit např. i s nepřerušovaným čínským textem. Tokenizér používá klasifikátory založené na modelech s maximální entropií, a jedná se tudíž o systém strojového učení, kterému je nutné předložit již tokenizovaná ukázková data k trénování. Program je doplněn nástrojem pro hlášení úspěšnosti tokenizace, což pomáhá zejména při rychlém vývoji a ladění tokenizačního procesu. Systém byl vyvinut pouze za pomoci multiplatformních knihoven a při vývoji byl kladen důraz zejména na efektivitu a správnost. Po nezbytném přehledu jiných tokenizérů a krátkém úvodu do teorie modelů s maximální entropií se většina textu práce zabývá vlastní implementací tokenizéru a vyhodnocením jeho úspěšnosti.
Odhad emocí z textu
Dufková, Aneta ; Fajčík, Martin (oponent) ; Szőke, Igor (vedoucí práce)
Tato práce popisuje proces odhadování emocí z textu, při němž je využíváno strojové učení. Proces začíná průzkumem používaných metod, pokračuje výběrem vhodné metody a experimentováním. Využívá několik datových sad, kombinuje je a zkouší různé techniky předzpracování textu. Závěrem je webové rozhraní, které využívá předtrénovaný model a umožňuje detekovat emoce z příspěvků z Twitteru.
Programovací jazyk Scala a jeho využití pro analýzu dat
Kohout, Tomáš ; Bartík, Vladimír (oponent) ; Zendulka, Jaroslav (vedoucí práce)
Tato práce se zabývá porovnáním jazyka Scala s ostatními běžně používanými jazyky pro analýzu dat. Tyto jazyky se porovnávají z hlediska manipulace a zobrazení dat, strojvého učení a souběžného zpracování. Z tohoto porovnání následně vyplynou silné a slabé stránky jazyka Scala. Silné stránky jsou demonstrovány na implementované aplikaci pro kategorizaci e-mailů.
Zpracování uživatelských recenzí
Cihlářová, Dita ; Burget, Radek (oponent) ; Bartík, Vladimír (vedoucí práce)
Velmi často lidé nakupují na internetu zboží, které si nemohou prohlédnout a vyzkoušet. Spoléhají se tedy na recenze ostatních zákazníků, ale těch už může být v dnešní době příliš mnoho na to, aby je člověk mohl sám rychle a pohodlně zpracovat. Cílem této práce je nabídnout aplikaci, která dokáže v českých recenzích rozpoznat, jaké vlastnosti produktu jsou nejvíce komentované a zda je vyznění komentářů pozitivní či negativní. Výsledky pak mohou ušetřit velké množství času zákazníkům e-shopů a poskytnout zajímavou zpětnou vazbu výrobcům prodávaných produktů.
Statistické metody ve stylometrii
Dupal, Pavel ; Kaspříková, Nikola (vedoucí práce) ; Šulc, Zdeněk (oponent)
Cílem této práce je podat přehled nejpoužívanějších metod v odvětví identifikace autorského stylu (stylometrii). Úvodem je zrekapitulována historie tohoto oboru od konce 19. století do současnosti a je uvedena a vysvětlena potřebná terminologie z oblasti dolování znalostí z textu. Následuje představení několika vybraných metod z oblasti vícerozměrné statistiky (např. metoda hlavních komponent, shluková analýza) a strojového učení (Support Vector Machines, Naive Bayes) a jejich aplikace na stylometrické problémy, včetně několika metod vytvořených specificky pro použití v této oblasti (bootstrap consensus tree, kontrastní analýza). Nakonec jsou tyto metody aplikovány na praktický příklad verifikace autorství založeném na korpusu sestaveném z děl čtyř internetových spisovatelů.

Národní úložiště šedé literatury : Nalezeno 12 záznamů.   1 - 10další  přejít na záznam:
Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.